Veri setindeki değişkenlerde herhangi bir eksik gözleme rastlanmamıştır. Balance değişkeninde bazı değerlerin 0 olması, hesapların bakiyesinin 0 olduğu anlamına gelir

aykırı değer varlığı olabilir

"Complain" değişkeni, hedef değişkenle yüksek oranda benzer sonuçlar ürettiğinden ve modelin aşırı öğrenmesine (overfitting) neden olabileceğinden dolayı veri setinden çıkarılmıştır. Bu değişkenin hedef değişkenle güçlü bir korelasyon göstermesi, modelin genelleştirme kabiliyetini düşürerek eğitim verisine aşırı uyum sağlamasına yol açabilir. Dolayısıyla, daha güvenilir ve genellenebilir sonuçlar elde edebilmek amacıyla bu değişken analizden çıkarılmıştır.

En yüksek model doğruluğu (%86.3) elde edilebilmesi için korelasyon eşiği 0.02 olarak belirlenmiş ve bu eşiğin altında kalan 'Tenure' ve 'HasCrCard' değişkenleri modelden çıkarılmıştır. Bu değişkenlerin düşük korelasyon değerleri, modele anlamlı bir katkı sağlamadığını göstermiş ve çıkarılmaları model performansını artırmıştır.

aykırı değer analizi için kategorik değişkenler çıkarıldı

IQR ve Z-Score yöntemleriyle tespit edilen aykırı değer içeren değişkenler karşılaştırılmış ve her iki yöntemde ortak olarak belirlenen değişkenler ile sadece bir yöntemde aykırı olarak saptanan değişkenler analiz edilmiştir. Bu karşılaştırma, her yöntemin farklı aykırı değer tanımlama kriterlerine sahip olduğunu ve belirli değişkenlerin yalnızca bir yöntemde aykırı olarak değerlendirildiğini göstermektedir.

aykırı değere sahip değişkenleri çıkarmak modele doğruluğuna katkısı yok

Değişkenlerde uygulanan dönüşümlerin modelin performansına herhangi bir katkı sağlamadığı gözlemlenmiştir.

age değişkeni sayısal

age değişkeni kategorik

Yaş değişkeni kategorilere ayrıldığında modelin doğruluk/skor değerlerinde düşüş gözlemlenmiştir. Bu nedenle yaş değişkeni sürekli bir değişken olarak bırakılmıştır.

🎯 Hedef: LoyaltySegment değişkeni ile müşterileri 3 seviyede segmente ayıracağız: Low Loyalty → Churn riski yüksek. Medium Loyalty → Kararsız, potansiyel risk. High Loyalty → Sadık müşteri.

✅ LoyaltySegment ile Complain arasında korelasyon: 0.12494 Bu çok düşük bir korelasyon — neredeyse bağımsız sayılırlar.

Doğruluk (Accuracy): 0.86 → 0.9380 🎯

🧠 RiskSegment Nedir? RiskSegment, her müşteriye ait çeşitli özelliklerin (yaş, bakiye, kredi skoru, şikayet durumu, vb.) birlikte değerlendirilmesiyle oluşturulan bir tür davranışsal risk skorudur. Bu skor sayesinde müşteriler şu 3 gruptan birine atanır: High Risk: Bankayla olan ilişkisi zayıf, memnuniyeti düşük, churn etme olasılığı yüksek müşteriler Medium Risk: Orta düzeyde risk taşıyan, bazı göstergeleri olumlu bazıları olumsuz olan müşteriler Low Risk: Bankayla bağlılığı güçlü, memnun, churn etme ihtimali düşük olan sadık müşteriler

📌 Korelasyon açısından herhangi bir problem görünmüyor.

bu değişkende model doğruluğunu anlamlı şekilde artırmıştır

Bu değişken, müşterilerin bankayla olan ilişkilerini ve bağlılıklarını ölçerek onları üç farklı segmente ayırır: High Engagement (0): Bankayla güçlü bir etkileşimi olan, aktif müşteriler. Medium Engagement (2): Bankayla orta düzeyde etkileşimi olan müşteriler. Low Engagement (1): Bankayla sınırlı etkileşimi olan, potansiyel olarak sadık olmayan müşteriler

bu değişkende diğerleri gibi model doğruluğunu anlamlı şekilde artırmıştır

🟢 High Engagement (0): Bu grup bankayı aktif kullanan, birden fazla ürün sahibi, kredi kartı olan ve şikayeti olmayan müşterileri içeriyor. Yalnızca %5.3'ü bankayı terk etmiş. Bu, bankanın tutmak isteyeceği sadık müşteri profili. 🔴 Low Engagement (1): Bu grup en tehlikeli segment. Neredeyse yarısı (%48.9) bankayı terk etmiş! Etkileşimi düşük olan müşteriler ciddi bir churn riski taşıyor. Banka burada acil aksiyon almalı. 🟡 Medium Engagement (2): Bu segment de dikkat edilmeli. Her 5 kişiden 1'i bankadan ayrılmış. Belki küçük desteklerle (kampanyalar, bilgilendirme) sadık hale getirilebilir.

Anlamlılık: p < 0.05 → ilişki var, p ≥ 0.05 → ilişki yok

Anlamlılık: p < 0.05 → ilişki var, p ≥ 0.05 → ilişki yok

VIF değeri: – 1’e yakınsa, çoklu bağlantı sorunu yoktur. – 1 ile 5 arasındaysa, orta düzeyde çoklu bağlantı olabilir. – 10’ten büyükse, yüksek düzeyde çoklu bağlantı sorunu olabilir. • Bu çıktıdaki değerlere göre, tüm değişkenler için VIF değerleri 1'e yakın olduğu görünüyor, bu da bu veri setindeki seçilen değişkenler arasında çoklu bağlantı sorunu olmadığını gösterebilir.

Hipotez: • H0 (Null Hipotezi): Model veriye uyumlu değildir (p < 0.05) • H1 (Alternatif Hipotezi): Model veriye uyumludur (p > 0.05) - p-değeri (5.96e-05) 0.05'ten küçük olduğu için, null hipotez reddedilir. - Bu, modelin veriye iyi uyum sağlamadığını gösterir.

Statistiksel analiz bölümünde, modelde anlamlı bulunmayan veya analiz dışı bırakılması uygun görülen değişkenler ( Card_Type, Point_Earned, EstimatedSalary) çıkarılmıştır.

Genel olarak sonuçlar iyi ancak simülasyon yaparak daha dengeli hale getirebiliriz

Hedef değişken dengesizlik söz konusu

daha dengeli hale geldi

📊 Model Doğruluğu Grafiği: Eğitim Doğruluğu (Mavi Çizgi) 💙: Modelin eğitim verileri üzerindeki doğruluğu hızla artar ve neredeyse %95'e ulaşır. 10 epoch sonra %97'ye kadar yakınsar. Bu gösterge, modelin eğitim verilerini ne kadar iyi öğrendiğini gösterir. Doğrulama Doğruluğu (Turuncu Çizgi) 🍊: Modelin doğrulama veri kümesi üzerindeki performansı. Eğitim doğruluğuna benzer bir eğilim gösterse de biraz daha düşük seviyelerde seyreder. Bu, modelin genelleme yeteneğini yansıtır. 🔥 Model Kayıp Değeri Grafiği: Eğitim Kaybı (Mavi Çizgi) 💙: Modelin eğitim verileri üzerindeki hatası, başlangıçta hızlı bir düşüş gösterir. Ardından bu azalma yavaşlar ve yaklaşık 20 epoch sonunda kayıp değeri 0.1'in altına iner. Bu, modelin eğitim sırasında iyileştiğini ve hatalarını minimize ettiğini gösterir. Doğrulama Kaybı (Turuncu Çizgi) 🍊: Modelin doğrulama veri kümesi üzerindeki hatası da eğitim kaybına benzer bir eğilim gösterir. Ancak doğrulama kaybı, genellikle eğitim kaybından daha yüksek olabilir, çünkü model genelleme yaparken doğrulama verileriyle karşılaşır.